Skip to main content

AI世界大入门

· 6 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

introduction

这篇文章旨在理解一大堆杂七杂八的,狗屁倒灶的,ai 方向的专用名词,例 AI,NLP,CV,深度学习,强化学习等等等 我相信初学者肯定会对这些名词感到困惑,就如同第一天我在面试时提出的问题: “我就只会数学建模和西瓜皮上的那些算法,好奇的问一下深度学习是啥?” 这个问题对现在的我来说也相当困惑,当然我相信写完这篇文章会让我的理顺这些东西

preliminary knowledge

首先,给我整个 AI 的框架

人工智能(Artificial Intelligence, AI)

├── 机器学习(Machine Learning, ML)
│ ├── 监督学习(Supervised Learning)
│ ├── 无监督学习(Unsupervised Learning)
│ ├── 强化学习(Reinforcement Learning, RL)
│ └── 其他(半监督、主动学习等)

├── 深度学习(Deep Learning, DL)
│ ├── 神经网络(CNN, RNN, Transformer)
│ ├── 自监督学习(Self-supervised)
│ ├── 生成模型(GAN, Diffusion, VAE)
│ └── PINNs / SciML(物理引导模型)

└── 应用领域
├── NLP(自然语言处理)
├── CV(计算机视觉)
├── Speech(语音)
└── 多模态 / 大模型(GPT, Gemini, etc.)

按照参差结构来讲,先从最简单的开始吧

1. 应用领域

搜索算法,符号推理这些其实都可以类比到实习中的“搜推广”(搜索推荐广告)算法工程师。这些东西其实都可以归结为应用领域或技术范式。如下所示

名称类别解释
NLP(自然语言处理)应用领域使用深度学习模型(如 Transformer)处理文本
CV(计算机视觉)应用领域使用 CNN 或 ViT 处理图像
Diffusion / GAN / VAE生成模型深度学习中的一种模型类型(生成任务)
大模型(Foundation Model)模型规模/范式基于深度学习(Transformer)的通用大模型,如 GPT、Gemini

2. 机器学习

机器学习就是大部分西瓜皮上的内容了,他的本意就是“让计算机自己去学习”,所以就会自然而言的牵扯到两大类别,即无监督学习和有监督学习,具体含义如下

类型中文含义训练方式示例
监督学习 (Supervised Learning)有标签学习已知输入与期望输出,通过最小化预测误差进行训练分类、回归、图像识别
无监督学习 (Unsupervised Learning)无标签学习在未标注数据中自动提取潜在结构或模式聚类、降维、自编码器
强化学习 (Reinforcement Learning)奖励驱动学习智能体与环境交互,通过试错获得最大累计奖励游戏 AI、机器人控制

对于强化学习而言,这部分会在后续着重介绍(因为我真的不懂)。但是一般而言,按照“想让机器学到什么”的定义,又可如下分类 · 监督学习用于“从已有示例中学习” · 无监督学习用于“理解数据结构” · 强化学习用于“学习行动策略”

3. 深度学习

深度学习是机器学习的一个重要分支,可以理解为使用多层神经网络(Neural Networks)自动学习数据特征的一类方法 换句话说,它依然遵循“最小化误差(loss function)”的思想,但与传统机器学习不同,
深度学习不再需要人手去“提取特征”,而是通过层层网络结构自动完成特征提取与抽象表示

从集合关系上看: 深度学习 ⊂ 神经网络 ⊂ 机器学习 ⊂ 人工智能 例子:

层级学到的特征(以图像识别为例)
第 1 层学到边缘、线条等简单模式
第 2 层学到角点、纹理、局部形状
第 3 层学到眼睛、鼻子等复杂结构
第 4 层及以上学到“猫脸”“汽车”等语义概念

difference between Deep Learning(DL) and machine Learning(ML)

尽管两者的本质都是最小化误差(如 loss function),但核心目的是不同的。ML 的目的是寻找使预测误差最小的参数。(比如在 n 次线性函数中找最优参数,神经网络调整通过 Adam 反向传播调整网络权重)

算法优化目标损失函数举例
线性回归拟合直线MSE(均方误差)
逻辑回归分类概率交叉熵(Cross Entropy)
SVM最大化间隔Hinge Loss
决策树信息增益最大化熵(Entropy)

DL 也确实是继承了这个想法(最小化误差),但它的关键区别在于 “模型复杂度” 和 “特征获取方式”

方面机器学习(ML)深度学习(DL)
特征需要人工提取(feature engineering)网络自动学习特征
模型结构简单模型(线性/树/核函数)多层非线性神经网络
参数规模少(几十~几百)多(百万~数十亿)
优化方法梯度下降、凸优化反向传播 + SGD/Adam
可解释性
数据需求较少巨量数据

其实可以理解为,DL 本质就是神经网络,只是这个网络又大(神经元)又深(多层)。深度学习不只是有神经网络,还包括优化算法、损失函数、正则化、数据增强等。神经网络是模型,深度学习是方法。 最大的目的就是:为了学习特征。区别在于可以更好的处理高度非线形问题

强化学习

说了这么多,终于可以讲强化学习了,强化学习是让智能体(Agent)通过与环境(Environment)交互,并根据奖励(Reward)反馈,学习最优决策策略(Policy)的方法。 需要注意的是,这是一个最大化优化,不是 loss 这样的最小化优化(奖励必然是越多越好)

继续举例五大基本元素

元素英文含义举例(机器人走迷宫)
Agent智能体负责做决策的学习者机器人本身
Environment环境Agent 所处的世界迷宫
State状态(s)当前环境的观测机器人现在的位置
Action动作(a)Agent 可以执行的操作向上/下/左/右移动
Reward奖励(r)环境给的反馈信号到终点+1,撞墙-1

p-code 如下:

for episode in range(N):
state = env.reset() # Agent观察环境(init啦其实就是)
while not done: # 开始训练
action = agent.select_action(state) # 选择一个动作
next_state, reward, done = env.step(action) # 环境给出新的状态和奖励;
agent.learn(state, action, reward, next_state) # Agent根据奖励更新策略
state = next_state

所以,强化学习不是预测一个矢量或标量,他的目的应该是学习一种策略

ps:some cases

领域应用场景说明
游戏AlphaGo、Atari、Dota2通过自我博弈学习最优策略
机器人控制行走、抓取、平衡连续动作空间优化
自动驾驶路径规划、决策控制学习最优驾驶策略
智能电网城市能源优化(CityLearn)控制能耗和储能系统
金融投资组合优化最大化长期收益